初学爬虫时,如何正确的找到信息节点?
本篇阅读时间约为 3 分钟。
1
遇到的问题
上个月,有个朋友在初学爬虫的时候遇到了一个问题,给他解决问题的同时写了一个文档。今天给大家分享一下吧。也许你也会遇到相同的疑问。
在初学爬虫时,你可能会遇到一个问题,如何才能正确的从网页上分析出想要的节点呢?在此之前,你需要先了解一个知识点,HTML。
2
了解 HTML
W3C,地址:
http://www.w3school.com.cn/html/index.asp
乍一看,内容很多的样子,但是实际上你只需要花 20 分钟大致了解下 HTML 基本的元素组成即可。就像下图,了解红框即可:
3
举个栗子
像笔者之前小课堂提到的熊猫直播,已经晾凉了,这次采用章鱼直播给大家举个栗子吧!(采用了他提供的直播站来讲解下)
章鱼直播地址:
http://www.zhangyu.tv/channeltypes/all
1.首先,明确要获取的信息,按下 F12,查看元素:
2.找到一组自己想要的数据:
3.观察多组数据,分析节点:
4.分析节点,统计数据:
找到爬取内容的前后节点信息,在 F12 中 Ctrl + F 搜索下 class ,看看有多少个,比如上面一共 94 个符合的class,说明基本符合房间数。
5.写正则匹配,将内容匹配出来即可。
具体正则写法,不赘述了,就是利用定界,分组原理即可。
结果如下:
4
总结
入门级的爬虫学习,可以找有规律的网站去小试牛刀,上手之后可以尝试深入学习。
在程序的实现上,正则表达式并不是唯一提取信息的手段,还有其他的手段,比如 Python 的 BeautifulSoup 库等...要明白哪些是具有共同性的,分析节点的思维是亘古不变的,无非变得就是代码实现而已。
长按关注
公众号名称:咪哥杂谈
一个咪咪怪的公众号
长按二维码关注哦!